15 research outputs found

    Cascade evaluation of clustering algorithm

    Get PDF
    International audienceThis paper is about the evaluation of the results of clustering algorithms, and the comparison of such algorithms. We propose a new method based on the enrichment of a set of independent labeled datasets by the results of clustering, and the use of a supervised method to evaluate the interest of adding such new information to the datasets. We thus adapt the cascade generalization paradigm in the case where we combine an unsupervised and a supervised learner. We also consider the case where independent supervised learnings are performed on the different groups of data objects created by the clustering. We then conduct experiments using different supervised algorithms to compare various clustering algorithms. And we thus show that our proposed method exhibits a coherent behavior, pointing out, for example, that the algorithms based on the use of complex probabilistic models outperform algorithms based on the use of simpler models

    Identification de compatibilités entre tags descripteurs de lieux et apprentissage automatique

    Get PDF
    International audienceLes travaux présentés dans cet article s'inscrivent dans le paradigme des recherches visant à acquérir des relations sémantiques à partir de folksonomies (ensemble de tags attribués à des ressources par des utilisateurs). Nous expérimentons plusieurs approches issues de l'état de l'art ainsi que l'apport de l'apprentissage automatique pour l'identification de relations entre tags. Nous obtenons dans le meilleur des cas un taux d'erreur de 23,7 % (relations non reconnues ou fausses), ce qui est encourageant au vu de la difficulté de la tùche (les annotateurs humains ont un taux de désaccord de 12%)

    Diversité de recommandations : application à une plateforme de blogs et évaluation

    Get PDF
    International audienceLes systĂšmes de recommandations (SR) ont pour objectif de proposer automatiquement Ă  l'usager des objets en relation avec ses intĂ©rĂȘts. Dans le contexte de la recherche documentaire, les intĂ©rĂȘts de l'usager peuvent ĂȘtre modĂ©lisĂ©s Ă  partir des contenus des documents visitĂ©s ou des actions rĂ©alisĂ©es. Pour tendre vers des recommandations plus pertinentes, nous proposons un modĂšle de SR qui construit une liste de recommandations rĂ©pondant Ă  un large spectre d'intĂ©rĂȘts potentiels. L'orignialitĂ© de notre modĂšle est qu'il repose sur la notion de diversitĂ©, obtenue en agrĂ©geant diffĂ©rentes mesures d'intĂ©rĂȘt pour construire la liste de recommandations finale. Nous dĂ©finissons Ă©galement un protocole permettant d'Ă©valuer l'intĂ©rĂȘt de ces recommandations. Nous prĂ©sentons enfin les rĂ©sultats obtenus par notre SR basĂ© sur la diversitĂ© dans le cadre de la recommandation de billets de blogs

    Évaluation en cascade d'algorithmes de clustering

    Get PDF
    National audienceCet article se place dans le cadre de l'Ă©valuation des rĂ©sultats d'algorithmes de clustering et de la comparaison de tels algorithmes. Nous proposons une nouvelle mĂ©thode basĂ©e sur l'enrichissement d'un ensemble de jeux de donnĂ©es Ă©tiquetĂ©s indĂ©pendants par les rĂ©sultats des algorithmes de clustering considĂ©rĂ©s, et sur l'utilisation d'un algorithme supervisĂ© pour Ă©valuer l'intĂ©rĂȘt de ces nouvelles informations apportĂ©es. Nous adaptons ainsi la technique de cascade generalization (Gama & Brazdil, 2000) au cas oĂč l'on combine un apprenant supervisĂ© et un apprenant non supervisĂ©. Nous considĂ©rons Ă©galement le cas oĂč des apprentissages supervisĂ©s indĂ©pendants sont exĂ©cutĂ©s sur les diffĂ©rents groupes de donnĂ©es identiïŹĂ©s par le clustering (Apte et al., 2002). Nous avons menĂ© des expĂ©rimentations en considĂ©rant diffĂ©rents algorithmes supervisĂ©s pour comparer plusieurs algorithmes de clustering. Nous montrons ainsi le comportement cohĂ©rent de la mĂ©thode proposĂ©e qui met en avant, par exemple, le fait que les algorithmes de clustering basĂ©s sur l'utilisation de modĂšles proba- bilistes plus complexes surpassent les algorithmes basĂ©s sur des modĂšles plus simples

    SuSE : Subspace Selection embedded in an EM algorithm

    Get PDF
    National audienceSubspace clustering is an extension of traditional clustering that seeks to ïŹnd clusters embedded in different subspaces within a dataset. This is a particularly important challenge with high dimensional data where the curse of dimensionality occurs. It also has the beneïŹt of providing smaller descriptions of the clusters found. In this ïŹeld, we show that using probabilistic models provides many advantages over other existing methods. In particular, we show that the difïŹcult problem of the parameter settings of subspace clustering algorithms can be seen as a model selection problem in the framework of probabilistic models. It thus allows us to design a method that does not require any input parameter from the user. We also point out the interest in allowing the clusters to overlap. And ïŹnally, we show that it is well suited for detecting the noise that may exist in the data, and that this helps to provide a more understandable representation of the clusters found

    Évaluation de la pertinence dans les moteurs de recherche gĂ©orĂ©fĂ©rencĂ©s

    Get PDF
    National audienceLearning to rank documents on a search engine requires relevance judgments. We introduce the results of an innovating study on relevance modeling for local search engines. These search engines present search results on a map or as a list of maps. Each map contains all the attributes of a place (noun, address, phone number, etc). Most of these attributes are links users can click. We model the relevance as the weighted sum of all the clicks on a result. We obtain good results by fixing the same weight for each component of the model. We propose a relative order between clicks to determine the optimal weights.Optimiser le classement des rĂ©sultats d’un moteur par un algorithme de learning to rank nĂ©cessite de connaĂźtre des jugements de pertinence entre requĂȘtes et documents. Nous prĂ©sentons les rĂ©sultats d’une Ă©tude pilote sur la modĂ©lisation de la pertinence dans les moteurs de recherche gĂ©orĂ©fĂ©rencĂ©s. La particularitĂ© de ces moteurs est de prĂ©senter les rĂ©sultats de recherche sous forme de carte gĂ©ographique ou de liste de fiches. Ces fiches contiennent les caractĂ©ristiques du lieu (nom, adresse, tĂ©lĂ©phone, etc.) dont la plupart sont cliquables par l’utilisateur. Nous modĂ©lisons la pertinence comme la somme pondĂ©rĂ©e des clics sur le rĂ©sultat. Nous montrons qu’équipondĂ©rer les diffĂ©rents Ă©lĂ©ments du modĂšle donne de bons rĂ©sultats et qu’un ordre d’importance entre type de clics peut ĂȘtre dĂ©duit pour dĂ©terminer les pondĂ©rations optimales

    Mining XML Documents

    Get PDF
    XML documents are becoming ubiquitous because of their rich and flexible format that can be used for a variety of applications. Giving the increasing size of XML collections as information sources, mining techniques that traditionally exist for text collections or databases need to be adapted and new methods to be invented to exploit the particular structure of XML documents. Basically XML documents can be seen as trees, which are well known to be complex structures. This chapter describes various ways of using and simplifying this tree structure to model documents and support efficient mining algorithms. We focus on three mining tasks: classification and clustering which are standard for text collections; discovering of frequent tree structure which is especially important for heterogeneous collection. This chapter presents some recent approaches and algorithms to support these tasks together with experimental evaluation on a variety of large XML collections

    Contextualisation, Visualisation et Evaluation en Apprentissage Non Supervisé

    No full text
    Cette thĂšse se place dans le cadre de l'apprentissage non supervisĂ©, qui consiste Ă  former diffĂ©rents groupes Ă  partir d'un ensemble de donnĂ©es, de telle maniĂšre que les donnĂ©es considĂ©rĂ©es comme les plus similaires soient associĂ©es au mĂȘme groupe et qu'au contraire les donnĂ©es considĂ©rĂ©es comme diffĂ©rentes se retrouvent dans des groupes distincts, permettant ainsi d'extraire de la connaissance Ă  partir de ces donnĂ©es. Nous proposons d'abord deux nouvelles mĂ©thodes qui prennent en compte le contexte dans lequel les groupes sont crĂ©Ă©s, c'est-Ă -dire le fait que les caractĂ©ristiques des diffĂ©rents groupes peuvent ĂȘtre dĂ©finies sur diffĂ©rents sous-ensembles des attributs dĂ©crivant les donnĂ©es. Dans la mise en oeuvre de ces mĂ©thodes, nous avons Ă©galement considĂ©rĂ© les problĂ©matiques de la minimisation du nombre de connaissances a priori requises de la part de l'utilisateur et de la prĂ©sentation des rĂ©sultats sous forme comprĂ©hensible et visuelle. Nous prĂ©sentons ensuite plusieurs extensions possibles de ces mĂ©thodes, dans le cadre de l'apprentissage supervisĂ© puis face Ă  des donnĂ©es semi-structurĂ©es reprĂ©sentĂ©es sous forme arborescente. DiffĂ©rentes expĂ©rimentations sur donnĂ©es artificielles puis sur donnĂ©es rĂ©elles sont prĂ©sentĂ©es qui mettent en avant l'intĂ©rĂȘt de ces mĂ©thodes. Le problĂšme de l'Ă©valuation des rĂ©sultats produits par une mĂ©thode d'apprentissage non supervisĂ©, et de la comparaison de telles mĂ©thodes, restant aujourd'hui un problĂšme ouvert, nous proposons enfin une nouvelle mĂ©thode d'Ă©valuation plus objective et quantitative que celles utilisĂ©es traditionnellement, et dont la pertinence est montrĂ©e expĂ©rimentalement

    Contextualisation, Visualisation et Evaluation en Apprentissage Non Supervisé

    No full text
    Cette thĂšse se place dans le cadre de l'apprentissage non supervisĂ©, qui consiste Ă  former diffĂ©rents groupes Ă  partir d'un ensemble de donnĂ©es, de telle maniĂšre que les donnĂ©es considĂ©rĂ©es comme les plus similaires soient associĂ©es au mĂȘme groupe et qu'au contraire les donnĂ©es considĂ©rĂ©es comme diffĂ©rentes se retrouvent dans des groupes distincts, permettant ainsi d'extraire de la connaissance Ă  partir de ces donnĂ©es. Nous proposons d'abord deux nouvelles mĂ©thodes qui prennent en compte le contexte dans lequel les groupes sont crĂ©Ă©s, c'est-Ă -dire le fait que les caractĂ©ristiques des diffĂ©rents groupes peuvent ĂȘtre dĂ©finies sur diffĂ©rents sous-ensembles des attributs dĂ©crivant les donnĂ©es. Dans la mise en oeuvre de ces mĂ©thodes, nous avons Ă©galement considĂ©rĂ© les problĂ©matiques de la minimisation du nombre de connaissances a priori requises de la part de l'utilisateur et de la prĂ©sentation des rĂ©sultats sous forme comprĂ©hensible et visuelle. Nous prĂ©sentons ensuite plusieurs extensions possibles de ces mĂ©thodes, dans le cadre de l'apprentissage supervisĂ© puis face Ă  des donnĂ©es semi-structurĂ©es reprĂ©sentĂ©es sous forme arborescente. DiffĂ©rentes expĂ©rimentations sur donnĂ©es artificielles puis sur donnĂ©es rĂ©elles sont prĂ©sentĂ©es qui mettent en avant l'intĂ©rĂȘt de ces mĂ©thodes. Le problĂšme de l'Ă©valuation des rĂ©sultats produits par une mĂ©thode d'apprentissage non supervisĂ©, et de la comparaison de telles mĂ©thodes, restant aujourd'hui un problĂšme ouvert, nous proposons enfin une nouvelle mĂ©thode d'Ă©valuation plus objective et quantitative que celles utilisĂ©es traditionnellement, et dont la pertinence est montrĂ©e expĂ©rimentalement

    Nomao

    No full text
    corecore